Loading...
机构名称:
¥ 1.0

深度强化学习者经常面临有效协调感知和决策共同体的挑战,尤其是在具有高度感官输入的环境中,特征相关性各不相同。这项工作介绍了Sprig(使用内部游戏动力学的Spackelberg感知 - 预定学习学习),该框架将内部的感知互动建模为合作的Stackelberg游戏。在Sprig中,感知模块充当领导者,战略性地处理原始感觉状态,而策略模块则遵循,根据提取的功能做出决策。Sprig通过修改后的Bellman运营商提供了理由保证,同时保留了现代政策优化的好处。对Atari Beamrider环境的实验结果,通过其游戏理论提取和决策制定的游戏理论,获得了Sprig的有效性,比标准PPO提高了30%的回报。

arxiv:2502.14264v1 [cs.ai] 2025年2月20日

arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第1页

arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第2页

arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第3页

arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第4页

arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第5页

相关文件推荐